from bs4 import BeautifulSoup
from urllib.request import urlopen
"""总结一下爬网页的流程, 让你对 BeautifulSoup 有一个更好的定位.
1、选择要爬的网址 (url)
2、使用 python 登录上这个网址 (urlopen等)
3、读取网页信息 (read() 出来)
4、将读取的信息放入 BeautifulSoup
5、使用 BeautifulSoup 选取 tag 信息等 (代替正则表达式)
"""
html =  urlopen("https://morvanzhou.github.io/static/scraping/basic-structure.html").read().decode('utf-8')
# print(html)
soup = BeautifulSoup(html,features='lxml')
print(soup.p)
# 获取所有链接
soup_link = soup.find_all('a')
soup_link = [l['href'] for l in soup_link]
print("\nall links:",soup_link)
